“ Give me a lever long enough and a place to stand, and I will move the world.
——Archimedes
” 实证研究的常见问题之一为 “内生性”(endogeneity),即解释变量与扰动项相关。研究者通常要花很大精力来解决内生性问题,而工具变量法则是解决内生性的常用利器。
其中, 为被解释变量, 为解释变量, 与 为待估计的未知参数,下标 表示个体 (比如,第 个企业), 为随机扰动项(包含除 外影响 的所有其他因素),而 为样本容量。
如果存在内生性,则称解释变量 为 “内生变量”(endogenous variable);反之,则称 为 “外生变量”(exogenous variable)。内生性的严重后果是使得 OLS估计量不一致(inconsistent),即无论样本容量 多大,OLS 估计量 也不会收敛至真实的参数值 。
工具变量的思想其实很简单。虽然内生变量 是 “坏” 的变量(与扰动项相关),但仍可能有 “好” 的部分(与扰动项不相关的部分),正如坏人通常也有好的一面。如果能将内生变量 分解为内生部分与外生部分之和,则可能使用其外生部分得到一致估计。而要实现这种分离,通常需要借助另一变量,比如 ,称为 “工具变量”(Instrumental Variable,简记 IV),因为它起着工具性的作用。显然,并非任何变量都可以作为工具变量。首先,变量 要能够帮助内生变量 分离出一个外生部分,则变量 自身必须是 “干净”的,即满足 “外生性”( 与扰动项不相关): 其次,变量 还须与 有一定关系,即满足 “相关性”( 与 相关): 假设找到内生变量 的有效工具变量 ,则可将 对 进行 OLS 回归,从而分离出 的外生部分: 此回归称为 “第一阶段回归”(first stage regression)。由工具变量的相关性( 与 相关)可知, ;否则,无法实现此分离。记此回归的拟合值(fitted value)为 :其中,第一阶段回归的拟合值 为工具变量 的线性函数,故为外生部分(因为 外生);而其余的残差 为内生部分。
既然第一阶段回归的拟合值 外生,故只要将 替代原模型中的内生变量 ,即可用 OLS 得到一致估计: 称此回归为 “第二阶段回归”(second stage regression)。不难证明,在此回归中, 与扰动项 不相关。
首先,由于 为工具变量 的线性函数,故 与 不相关。其次,根据 OLS 的正交性(陈强,2015,p.62),OLS 回归的拟合值与残差正交(orthogonal),故 (第一阶段回归的拟合值)与 (第一阶段回归的残差)不相关。因此,OLS 为一致估计。由于此工具变量法通过两个 OLS 回归来实现,故称为 “二阶段最小二乘法”(Two Stage Least Squares,简记 2SLS)。如果有多个工具变量,比如 与 ,也不难处理,只要将这两个工具变量同时放入第一阶段回归即可: 在多元回归中,一般还有其他的外生变量或控制变量,比如: 其中, 为内生变量,而 为外生变量。此时,应将外生变量 也放入第一阶段回归中。原因有二。
首先, 可作为自身的工具变量,因为 满足相关性( 与 自身完全相关)与外生性( 为外生变量)。其次,如果不将外生变量 放入第一阶段回归,则无法保证第一阶段回归的残差 与 正交,使得第二阶段回归的扰动项 可能与 相关( 在第二阶段回归方程中),导致第二阶段回归不一致。如果只有 1 个内生变量,则仅需 1 个工具变量即可进行 2SLS 估计。类似地,如果有 2 个内生变量,则至少需要 2 个工具变量才能进行 2SLS 估计。理由如下——假设有 2 个内生变量 与 ,但只有 1 个工具变量 。此时,存在两个第一阶段回归方程:显然,由于 与 均为工具变量 的线性函数,故二者之间存在严格的线性关系。因此,将 与 同时放入第二阶段回归方程,将导致 “严格多重共线性”(strict multicollinearity),使得无法进行 OLS 估计。
由上可知,如果工具变量个数少于内生变量个数,则无法进行 2SLS 估计,称为 “不可识别”(unidentified),因为无法得到对模型参数的一致估计。如果工具变量个数正好等于内生变量个数,则称为 “恰好识别”(just identified 或 exactly identified)。如果工具变量个数大于内生变量个数,则称为 “过度识别”(overidentified)。在恰好识别或过度识别的情况下,均可进行 2SLS 估计;而在不可识别的情况下,则无法进行。可以证明(陈强,2015,第10章),2SLS 估计量为一致估计(consistency),且随着样本容量 增大,其渐近分布为正态分布(asymptotic normality)。而且,如果扰动项为球形扰动项(满足同方差、无自相关),则 2SLS 为最有效率的工具变量法。如果担心扰动项存在异方差,则依然可使用稳健标准误(robust standard errors)进行统计推断。当然,2SLS 的这些优秀性质都依赖于工具变量的有效性。那么,应如何检验工具变量的相关性与外生性呢?且看下回。________________________________参考文献
陈强,《高级计量经济学及Stata应用》,第2版,高等教育出版社,2014年。
陈强,《计量经济学及Stata应用》,高等教育出版社,2015年。
►往期推荐
回复【Python】👉简单有用易上手
回复【学术前沿】👉机器学习丨大数据
回复【数据资源】👉公开数据
回复【可视化】👉你心心念念的数据呈现
回复【老姚专栏】👉老姚趣谈值得一看
►一周热文
工具&方法丨还没理解主成分分析?理论与stata应用
数据呈现丨R VS Python,可视化效果孰强孰弱?
特别推荐丨老姚专栏:还拎不清主成分分析与因子分析?进来看看
工具&方法丨使用双重差分难?文献中的五套方法解惑
数据呈现 | R绘图:南丁格尔图,展示全国现制饮品店密度分布
这里是大数据、分析技术与学术研究的三叉路口
作者:陈强出处:计量经济学及Stata应用推荐:杨奇明编辑:青酱